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摘 要 : [目的 /意义 ] 应 用 关联 数据 技术 进行 历史 档案 资源 聚合 ,以 发 气 资 源 数据 的 潜在 关联 ,发 现 新 知识 并 实现 价值 增 
值 , 进 而 优化 知识 服务 。 [ 方法 “过程 ] 杭 理 档案 资源 开发 利用 和 聚合 的 相关 研究 ,从 资源 聚合 的 目标 、 原 则 、 流 程 
和 层级 关系 等 方面 构建 历史 档案 资源 聚合 框架 ,并 采用 “经 史 子 集 ” 实例 分 析 资 源 聚 合 过 程 。[ 结果 /结论 ] 构建 
了 关联 数据 视角 下 历史 档案 资源 聚合 的 理论 指导 框架 和 检索 服务 平台 ,为 历史 档案 资源 的 开发 利用 提供 从 理论 


到 实践 的 实现 路 径 。 
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< 二 大 数据 时 代 , 网 络 信息 资源 规模 海量 增长 ,图 书 
饰 -博物 馆 .档案 馆 等 文化 机 构 储 藏 了 大 量 的 历史 档案 
资源 ,而 历史 档案 资源 的 数字 化 保护 与 开发 利用 还 需 


不 思 地 纵深 发 展 , 以 满足 用 户 深度 获取 资源 的 需求 。 


基础 。L. Y. Chen 等 以 非 遗 为 研究 对 象 , 主张 建立 
与 非 遗 特征 相 契 合 的 管理 信息 系统 ,在 跨 学 科 理 念 视 
角 下 搭建 领域 互通 的 桥梁 。 牛 力 等 ”从 数字 人 文 研究 
一 般 方法 论 体 系 和 数字 环境 下 档案 资源 开发 利用 方法 
体系 中 抽 离 组 配 逻 辑 ,结合 档案 资源 的 基本 特征 ,形成 
了 包含 发 现 、 重 构 和 故事 化 的 方法 路 径 体系 。 赵 雪 


间 染 来 ,关联 数据 的 广泛 应 用 与 发 展 使 各 信息 资源 部 
门 逐 步 实现 了 数据 网 络 的 构建 。 关 联 数据 采用 三 元 
肖 式 对 不 同形 态 数字 资源 进行 解析 ,并 协同 本 体 进 
行 察 层次 的 描述 ,最 大 限度 地 揭示 了 数字 资源 的 内 部 
关 卫 , 进 而 实现 数字 资源 间 的 互 操作 。 关 联 数据 具有 
针 辐 解决 当前 历史 档案 资源 深度 组 织 与 开发 中 所 存在 
的 信息 孤岛 和 信息 超载 难题 的 潜力 。 资 源 聚 合 中 的 
“推理 功能 "更 有 助 于 发 现 潜在 的 新 知识 链接 。 本 研 
究 提出 基于 关联 数据 的 历史 档案 资源 聚合 思路 ,以 便 
加 深 对 历史 档案 资源 聚合 概念 的 理解 ,推动 聚合 技术 
的 深入 研究 ,加 快 实现 历史 档案 资源 的 互联 与 聚合 进 
程 。 
2 相关 文献 研究 
2.1 历史 档案 资源 开发 利用 

对 于 历史 档案 资源 开发 利用 ,学 者 们 在 理论 方法 


及 策略 构建 方面 积累 了 大 量 的 有 益 成 果 , 同 时 为 技术 
应 用 于 历史 档案 资源 开发 利用 的 微观 实践 打下 了 坚实 


等 中 从 转变 数字 档案 信息 资源 整合 方式 .扩大 档案 信 
息 资源 开发 工作 的 规模 、 深 化 档案 部 门 与 数字 人 文 研 
究 团 队 的 合作 ,拓宽 档 案 信 息 资源 开发 涉及 的 领域 4 
个 方面 构建 了 基于 数字 人 文 的 档案 信息 资源 开发 的 路 
径 体 系 。 陈 佳 雨 等 中 构建 了 档案 故事 众 开 发 模式 ,并 
从 资源 层 、 转 化 层 与 传播 层 提出 开发 策略 。 朱 兰 兰 
等 中 从 基于 文本 挖掘 技术 的 家 谱 档 案 资源 深度 开发 、 
基于 数据 管理 技术 的 新 型 家 谱 档案 数据 库 建 设 .基于 
VR/AR 技术 的 家 族 档案 和 场景 重 构 、 基 于 GIS 技术 的 
家 谱 资源 和 文化 共享 平台 建设 4 个 数字 人 文 的 理论 方 
法 维度 思考 了 家 谱 档 案 资源 多 元 化 开发 利用 的 可 行 思 
路 。 学 者 们 还 分 别 以 地 方 特色 档案 .黄河 档案 资 
源 .口述 历史 档案 呈 等 为 研究 载体 ,利用 数字 人 文 方 
法 ,提出 了 多 元 化 的 历史 档案 资源 开发 方式 。 
2.2 资源 聚合 

资源 聚合 研究 在 图 书 情报 学 领域 研究 较为 丰富 。 
T，Heath 等 ”通过 构建 Web 数据 和 关联 数据 应 用 程 
序 ,来 加 快 全 球 范围 内 数据 集成 的 实现 。 苑 均 平 等 
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以 情报 领域 为 研究 范围 研究 作者 共 被 引 的 情况 ,研究 
表明 基于 共 被 引 的 馆藏 资源 聚合 是 一 种 良好 方法 。 王 
洪 军 等 "" 在 对 元 数据 进行 采集 、 整 合 与 存储 后 ,构建 
了 基于 元 数据 仓储 和 动态 链接 的 资源 整合 系统 ,以 便 
用 户 通过 知识 导航 ,信息 检索 .个 性 化 服务 等 功能 实现 
对 馆藏 资源 的 检索 与 使 用 。 游 识 等 "用 关联 数据 实 
现 馆 藏 资源 的 语义 关联 资源 浏览 等 服务 ,并 在 图 书馆 
关联 数据 链接 管理 中 通过 建立 RDF 链接 创建 与 维护 
机 制 实现 与 馆 外 数据 的 关联 。 墨 盗 等 “1 对 语义 共 词 
分 析 模 型 进行 构建 ,根据 结果 对 馆藏 资源 进行 语义 标 
注 ,从 而 实现 馆藏 资源 的 多 维 聚 合 。 从 一 定 程度 上 来 
说 ,档案 资源 聚合 也 已 进入 档案 学 界 的 研究 视野 ,但 研 
究 步伐 却 相对 缓慢 。 张 云 中 等 "以 NARA 数字 档案 
on Women at War ”为 案例 ,构建 了 数字 档 
费 型 ,有 助 于 提升 数字 档案 资源 的 服务 效 
a s 本 体 模型 .档案 数据 抽 
竹 扣 并 构建 出 档案 关联 数据 知识 图 谱 ,以 拓展 开发 
箭 国 新 利用 档案 馆 斑 资源 ,实现 档案 资源 增值 。 
研究 述评 
通过 系统 梳理 国内 外 研究 现状 ,发 现 学 者 们 在 历 
:档案 资源 开发 利用 的 方法 路 径 及 策略 构建 方面 形成 
于 名 为 系统 研究 体系 ,对 该 领域 的 发 展 起 到 了 极 大 的 
捧 浊 作用。 但 是 ,总 的 来 说 当前 研究 体系 中 宏观 理论 
办, 技术 应 用 较 少 。 国 内 外 已 在 多 重 领域 进行 了 基 
了 8 联 数据 的 数字 资源 聚合 研究 ,尝试 将 关联 数据 与 
非 赐 质 文化 遗产 ,图 图 书 情报 学 ,政府 等 互联 ,实现 资源 
深 进 聚 合 。 而 档案 学 界 将 关联 数据 技术 应 用 到 历史 档 
用 站 源 聚 合 研究 的 步伐 要 相对 缓慢 . 

在 信息 技术 日 益 更 迭 的 数字 时 代 , 历 史 档 案 资源 
的 开发 也 迎 来 了 资源 分 散 、 异 构 、 信 息 孤 岛 等 一 系列 理 
论 及 应 用 难题 。 而 关联 数据 则 为 历史 档案 资源 的 聚合 
提供 了 一 个 可 行 的 研究 思路 和 方案 ,不 仅 有 助 于 解决 
海量 分 散 资源 的 异 构 甚 至 信息 孤岛 等 问题 ,还 在 推动 
历史 档案 资源 的 开发 进程 .丰富 历史 档案 资源 理论 . 拓 
宽 历史 档案 资源 聚合 的 技术 路 线 等 方面 发 挥 着 极其 重 
要 的 作用 。 基 于 此 ,本 研究 以 海量 的 ,分 散 的 、 异 构 的 、 
价值 丰富 的 历史 档案 资源 为 研究 对 象 ,引入 关联 数据 
的 方法 ,技术 与 理念 ,以 实现 对 历史 档案 资源 的 深度 聚 


-A 
口 o 


3 ”历史 档案 资源 聚合 分 析 框 架 


构建 基于 关联 数据 的 聚合 框架 模型 是 实现 历史 档 
案 资 源 聚 合 的 重要 基础 。 以 下 通过 探索 历史 档案 资源 


聚合 的 目标 .原则 和 流程 ,为 构建 基于 关联 数据 的 历史 
档案 资源 聚合 框架 模型 提供 依据 。 
3.1 资源 聚合 目标 

历史 档案 资源 聚合 的 总 体 目 标 是 着 眼 于 用 户 所 需 
的 资源 集 , 以 知识 体系 的 方式 呈现 给 用 户 ,改变 传统 的 
独立 知识 片段 的 呈现 结果 ,节约 用 户 的 检索 时 间 , 尽 可 
能 多 地 满足 用 户 的 知识 需求 ， 人 
源 的 利用 价值 ,提升 知识 服务 的 效能 “。 具 体 包 括 以 
下 目标 : 
3.1.1 资源 组 织 

历史 档案 资源 的 载体 有 纸 质 .照片 录音、 录像 . 电 
子 等 ,种 类 繁多 ,日 资源 结构 和 类 型 各 不 相同 。 数 据 异 
构 导 致 历史 档案 资源 的 利用 、 开 发 和 共享 的 效果 并 不 
理想 。 将 历史 档案 资源 进行 资源 的 聚合 研究 ,终极 目 
标 便 是 将 资源 数据 库 中 的 异 构 数 据 信息 进行 集中 聚 
合 ,从 而 推进 信息 的 流通 和 共享 ,这 里 的 资源 聚合 不 仅 
仅 是 将 分 散 资源 简单 地 整合 到 一 起 ,而 是 以 整合 为 基 
础 ， en MB ga a 
块 ”。 历史 档案 资源 聚合 的 最 终结 果 是 要 打破 原 有 
的 资源 分 散 、 独 立 、 单 一 的 模式 , 重 塑 资源 的 结构 体系 ， 
构建 全 新 的 规范 化 的 .成 体系 的 资源 结构 体 。 
3.1.2 知识 服务 

在 历史 发 展 与 研究 中 ,如 何 有 效 聚 合 历史 档案 资 
源 是 本 文 需要 解决 的 关键 问题 。 在 当前 环境 中 ,专家 
学 者 们 运用 了 大 量 的 本 体 构 建 ,关联 数据 .语义 聚合 等 
手段 对 历史 档案 资源 进行 分 析 , 期 望 能 够 有 效 分 析 同 
一 历史 档案 资源 中 不 同 主题 的 分 布 态势 。 历 史 档 案 资 
源 及 其 实体 的 聚合 能 为 历史 主题 和 研究 结构 的 深度 探 
索 提 供 资 料 和 素材 ,加 上 技术 的 辅助 支撑 ,比如 在 历史 
主题 和 研究 结构 的 研究 中 采用 科学 地 图 和 可 视 化 等 技 
术 的 辅助 支持 ,借助 可 视 化 的 呈现 结果 ,结合 聚 类 等 方 
式 , 专 家 学 者 们 可 以 快速 理 清 历 史 研 究 的 结构 。 
3.1.3 科学 交流 

科学 交流 在 学 术 界 是 一 种 较为 大 型 .普遍 的 社会 
现象 ,其 最 为 典型 的 表现 是 科学 合作 。 传 统 的 以 个 人 
搜集 等 方式 获取 的 历史 档案 资源 存在 各 种 难以 避免 的 
问题 。 相 比 传统 的 历史 档案 资源 数据 获取 方式 和 研究 
方法 ,历史 档案 资源 之 间 的 学 术 关 联网 络 , 为 资源 网 络 
研究 提供 了 良好 的 研究 平台 ,有 助 于 科研 工作 者 更 好 
地 进行 学 术 交 流 。 
3.1.4 ”学 科 交 又 

在 历史 人 研究 主题 结构 中 ,采用 跨 学 科 、 跨 领域 的 方 
式 进行 研究 ,是 该 研究 中 一 直 被 重点 关注 的 热门 话题 。 
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通常 来 说 ,从 事 历史 档案 研究 的 专家 学 者 们 按照 一 定 
的 资源 分 类 依据 ,圈定 某 个 历史 领域 的 资源 ,进而 针对 
资源 包含 的 实体 对 象 如 历史 人 物 或 者 史料 ,借助 定量 
分 析 方法 分 析 不 同类 型 的 实体 之 间 的 关联 或 者 相互 被 
引 情况 , 借 此 可 看 出 跨 学 科 之 间 的 分 析 交 流 状况 。 
3.2 ”资源 聚合 原则 

本 文 参考 档案 元 数据 和 DC 元 数据 等 相关 的 标准 
与 规范 ,建立 历史 档案 资源 元 数据 标准 规范 ,以 满足 次 
源 实体 和 数字 对 象 的 定义 .修复 .组 织 . 解 译 . 管 理 . 保 
管 和 维护 等 的 需要 ,维持 历史 档案 资源 的 生命 周期 活 
动 。 聚 合 过 程 中 应 注意 以 下 几 点 :需要 聚合 的 历史 
档案 资源 应 为 异 构 的 .单独 存在 的 和 分 布 式 的 ;资源 
聚合 的 第 一 步 是 聚集 ,第 二 步 才 是 聚合 , 即 先 将 现 有 的 
历 中 档案 资源 组 织 成 一 个 整体 ,而 后 再 对 资源 进行 序 
做 [实现 聚合 ;@ 聚 合 过 后 的 系统 要 能 够 为 历史 档案 研 
究 项 和 相关 学 者 们 提供 一 个 可 供 检索 的 平台 ;@ 聚 合 
的 最 终 目的 是 提高 资源 利用 率 ,便于 历史 档案 相关 研 
究 现 开展 和 深入 。 因 此 ,历史 档案 资源 的 聚合 不 是 简 
单 地 把 各 种 不 同类 型 和 来 源 的 异 构 历 史 档案 资源 聚合 
到 忆 个 相同 的 Web 网 络 环境 中 ,更 重要 的 是 要 实现 历 
中 档案 资源 服务 与 资源 的 深度 聚合 。 
3《D 资源 聚合 流程 
人 通过 聚合 ,可 将 历史 档案 资源 划分 为 各 类 实体 ,分 
析 基 详细 的 属性 与 关系 ,组 织 资源 目录 ,赋予 目录 关联 
与 竹 索 功能 , 比如 层次 清晰 地 展示 与 某 朝代 历史 人 物 
或 湛 献 相关 的 所 有 资源 ,关联 某 个 历史 档案 资源 所 涵 
盖 隐 所 有 内 容 表 达 ,载体 表现 。 基 于 关联 数据 的 资源 
语 64 来 合 ,能 够 揭示 历史 档案 资源 表层 内 容 的 结构 及 
深层 次 的 知识 单元 ,并 重点 关注 资源 实体 之 间 的 相互 
联系 ,建立 知识 网 络 。 

历史 档案 资源 聚合 过 程 涵盖 了 采集 .资源 描述 . 语 
义 聚 合 及 可 视 化 呈现 等 阶段 , 见 图 1。 
3.3.1 资源 采集 阶段 

历史 档案 资源 数据 包含 不 同类 型 且 来 源 于 不 同系 
统 ,在 存储 分 布 上 会 出 现 异 构 异 质 的 特点 。 在 有 针对 
性 地 收集 历史 档案 资源 时 ,应 该 明确 历史 档案 资源 的 
特征 和 来 源 可 靠 性 ,历史 档案 资源 必须 是 真实 有 效 的 
环境 所 产生 的 。 
3.3.2 资源 描述 阶段 

资源 描述 是 资源 聚集 的 前 提 和 基础 ,需要 遵守 统 
一 的 元 数据 标准 和 框架 。 为 方便 计算 机 识别 和 处 理 ， 
本 文 复 用 较为 成 熟 的 元 数据 标准 体系 统一 描述 不 同 来 
源 . 不 同 结构 .不 同类 型 的 数据 资源 。 


kk Ei 
语义 聚合 要 素 人 
多 层次 时 现 。 
户 交互 
相似 
实例 容 1 
实例 案 合 。。_“ 。 超 网 络 链接 
技术 ~ OntoViz 
OWL2Prefuse 
RDF/XML 
RDF/IOWL 7 Bs 
> 结构 化 数据 人 
结构 化 元 数据 标准 等 同 关系 
文档 资源 人 相关 关系 
两 页 信息 说 引用 关系 
天 本 体 论述 关系 
原理 外 巴 包 
数据 米 源 Datastage 调节 器 
ICTCLAS 
i 构建 本 体 语义 聚合 流程 
艾 源 采集 ” 奖 源 描述 语义 聚合 可 视 化 呈现 “ 


图 1 基于 关联 数据 的 历史 档案 资源 聚合 流程 


3.3.3 语义 聚合 阶段 

整个 流程 的 核心 是 语义 聚合 。 聚 合 历史 档案 资源 
语义 时 可 以 :四 利用 先 验 语义 进行 语义 分 类 聚合 ,如 根 
据 主题 或 内 容 的 语义 相似 度 实 现 相 同 语义 特征 的 资源 
的 聚集 ;@ 根 据 本 体 概 念 及 概念 关系 的 组 织 进 行 资 源 
聚合 ,如 揭示 资源 实例 元 素 的 人 名 、 机 构 名 、 题 名 等 元 
数据 间 的 语义 关系 并 进行 语义 关联 及 映射 ,从 而 实现 
资源 聚合 。 
3.3.4 可 视 化 阶段 

以 视觉 的 方式 呈现 出 来 的 结果 就 是 可 视 化 ,一 方 
面 可 以 直观 地 展现 历史 档案 资源 中 复杂 的 链接 和 关 
联 ; 另 一 方面 ,在 大 量 的 数据 与 复杂 的 关联 中 ,用 户 可 
以 利用 直观 的 认 知 和 理解 能 力 发 现 其 中 的 潜在 知识 。 
根据 历史 档案 资源 的 重要 程度 来 设 定 相应 的 表现 形式 
和 视觉 距离 ,要 符合 大 众 用 户 的 视觉 思维 和 习惯 ,是 可 
视 化 需要 的 结果 。 历 史 档 案 资 源 聚 合 后 的 可 视 化 呈 
现 , 有 利于 用 户 的 感觉 .知觉 共同 调动 ,从 而 协助 用 户 
发 现 知识 。 


4 ”基于 关联 数据 的 历史 档案 资源 聚合 的 
实现 


为 使 历史 档案 资源 具备 语义 性 ,能 够 与 其 他 资源 
广泛 链接 ,在 本 文中 笔者 利用 关联 数据 技术 对 其 进行 
重组 。 因 此 ,历史 档案 资源 内 容 建 设 是 本 节 研 究 的 重 
点 ,下 文 从 历史 档案 资源 聚合 层级 关系 及 框架 提出 基 
于 关联 数据 的 历史 档案 资源 聚合 方法 。 

4.1 历史 档案 资源 聚合 层级 划分 

本 文 从 本 体内 部 、 外 部 的 资源 聚合 3 个 层级 探索 

历史 档案 资源 聚合 ,如 图 2 所 示 : 
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A A 


基 十 关联 数据 的 本 体 聚 合 | | 基于 关联 数据 的 内 部 聚合 
Foaf 本 体 


基于 关联 数据 的 外 部 聚合 


SKOS Geo 本 体 | | 档案 关联 数据 


档案 元 数据 
\ DC 元 数据 RS 入 
RDRlink RDEfink owl 


元 历史 档案 资源 关联 数据 
笋 元 数据 本 体 
据 dcterms 
看 RDHlink 
RDgtink DBpedia 
CDWA 元 数据 a RDFlink dcterms 
A LOD 其 他 关联 数据 
J } + 
基于 元 数据 的 本 体 构造 | [与 其 他 相关 资源 本 体 的 互联 | ， 与 其 他 数据 集 的 互联 


图 2 历史 档案 资源 聚合 的 层级 关系 


4. 1! 基于 本 体 的 资源 聚合 

( 〇 历史 档案 资源 由 不 同 来 源 . 不 同类 型 的 档案 资源 
维 戌 ,为 了 便于 统一 描述 资源 ,需要 制定 统一 的 元 数据 
标准 格式 ,以 实现 元 数据 之 间 的 互 操作 。 参 照 OAT 元 
交 据 收割 协议 5 等 ,将 不 同 来 源 . 不 同类 型 .不同 格式 
的 襄 构 元 数据 MARC .EAD .LIDO .TEI 等 ) 与 元 数据 本 
体 间 建立 映射 ,获得 符合 描述 规范 的 数据 集 ,利用 
将 数据 集 进行 XML 转换 ,生成 符合 RDFZXML 措 
述 现 范 的 元 数据 ,实现 异 构 元 数据 的 语义 聚合 。 


4.1.2 基于 关联 数据 的 内 部 聚合 

根据 关联 数据 发 布 原则 ,利用 URI 命名 历史 档案 
资源 ,并 描述 资源 语义 。 借 助 OCLC 提供 的 语义 相似 
性 算法 ,计算 以 RDF 格式 表示 的 历史 档案 资源 之 间 的 
相似 度 , 挖 掘 具 有 各 种 隐 性 关系 的 相关 资源 ,并 综合 利 
用 SKOS VIAF .GEO .FRBR FOAFI9 等 被 广泛 应 用 的 
词 库 映射 ,将 这 种 隐 性 的 语义 关系 转化 为 显 性 的 RDF 
语义 关系 。RDF 可 以 链接 异 构 资 源 形成 知识 网 络 , 以 
此 完成 领域 内 部 资源 聚合 。 
4.1.3 基于 关联 数据 的 外 部 聚合 

历史 档案 资源 发 布 需要 内 部 与 外 部 数据 集 关 联 ， 
内 外 部 数据 集 来 源 于 多 个 数据 渠道 。 通 过 URI 来 识别 
和 定位 RDF 描述 资源 和 相关 关联 资源 的 RDF 链接 ,并 
使 用 语义 标注 工具 Annocultor tool' "对 URI 标识 的 关 
联 数据 进行 标注 ,得 到 关联 数据 的 Web 参 引 解析 HT- 
TP URI ,并 以 HTTP URIs 为 桥梁 ,通过 LOD 云 (Liked 
Open Data Cloud ,关联 开放 数据 云 ) 提供 的 服务 与 外 部 
相关 的 开放 关联 数据 集 语 义 互 联 的 服务 ,实现 历史 档 
案 资 源 与 外 界 资 源 的 跨 域 聚合 。 
4.2 历史 档案 资源 聚合 结构 框架 

基于 关联 数据 的 历史 档案 资源 聚合 框架 分 为 : 数 
据 层 发 布 聚合 层 . 服 务 应 用 层 , 如 图 3 所 示 : 


9 一 一， 


历史 档案 资源 数据 集 语义 华 合 有 
领 城 内 资源 关联 数据 集 
专用 SPARQOL 端点 
= 关联 数据 搜索 引擎 
关联 数据 集成 检索 系统 


S 
RDF 数据 存储 


档案 关联 
数据 


语义 知识 本 体 
1 RDF 语义 描述 
关联 数据 维护 与 服务 
元 数据 - 本 体 映 射 
SPAROQL 查询 
OO 关联 数据 下 载 
1 元 数据-… 元 数 项 关联 数据 API 集 成 应 
历史 档案 资源 
I T 
历史 档案 资源 关联 数据 发 布 


So9 


determs 
DBpedia 


3 基于 关联 数据 的 历史 档案 资源 聚合 框架 
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4.2.1 语义 模型 构建 

对 于 历史 档案 资源 的 内 容 描述 ,在 不 同 的 历史 阶 
段 有 不 同 的 元 数据 标准 ,为 让 不 统一 的 历史 档案 资源 
描述 信息 能 够 拥有 一 致 的 管理 标准 和 模式 ,参考 METS 
和 RDF 等 有 关 规 定 ,构建 了 开放 的 模型 ,此 模型 聚合 
了 多 种 元 数据 标准 *1。 

主要 包含 的 资源 核心 类 有 :描述 不 同 数据 源 的 数 
据 集合 数据 集合 中 包含 的 历史 档案 资源 对 象 .资源 对 
象 的 数字 表现 形式 。 为 使 不 同类 型 来源 和 格式 的 历 
史 档 案 资源 的 语义 描述 相 一 致 ,依据 ORE 的 标准 , 采 
用 ore: Aggregation 类 关联 全 部 的 历史 档案 资源 对 象 和 
语义 描述 ,使 其 形成 一 个 数据 集合 网 络 。 另 外 ,为 强化 
描述 中 的 关联 ,此 模型 还 创建 了 查找 历史 档案 相关 资源 
的 元 数据 属性 ,包含 名 称 ,标识 ,版 本 、 定 义 等 ,通过 使 用 
统 生 的 描述 标准 ,关联 资源 对 象 ,使 其 更 好 地 聚合 。 
4C@ 关联 数据 的 发 布 与 聚合 
C@ 谋 型 建立 后 ,首先 是 本 地 资源 的 数据 关联 ,其 次 通 
过 启 表 映射 .实体 识别 .数据 聚合 等 操作 ,建立 历史 档 
案 次 源 语义 服务 的 关联 数据 集 ,最 后 定义 词汇 术语 和 
描述 数据 信息 的 概念 ,术语 和 逻辑 结构 。 本 文通 
下 建立 数据 集 之 间 关联 关系 实现 的 聚合 ,可 以 实现 数 
据 右 之 间 的 资源 共享 ,该 过 程 可 以 描述 为 :通过 词 表 
虹 简 找到 同一 概念 或 关系 的 不 同 词汇 描述 ;@ 通 过 实 
体 流 别 在 不 同 的 数据 集中 建立 同一 实体 数据 之 间 的 关 
有 多) 利用 聚合 过 程 ,通过 人 工 干预 对 同一 实体 对 象 的 
冲突 属性 进行 验证 .过滤 和 合并 。 
4"223 聚合 服务 

CO 在 这 个 层级 上 ,不 仅 可 以 对 历史 档案 资源 数据 进 

行 语义 链接 ,还 可 以 为 用 户 提供 资源 访问 和 检索 服务 。 


历史 档案 资源 聚合 服务 的 核心 价值 是 提高 数据 质量 ， 
提供 具有 独特 见解 的 结构 化 经 验 和 信息 。 利 用 具有 语 
义 支 持 的 Web Service 模型 对 历史 档案 资源 进行 知识 
表示 ,描述 和 重组 ,实现 历史 档案 资源 数字 数据 的 再 利 
用 和 共享 ,提高 其 使 用 价值 。 


5 历史 档案 资源 聚合 的 应 用 实例 分 析 


为 了 提高 历史 档案 资源 聚合 框架 的 可 靠 性 和 可 用 
性 ,在 此 采用 “经 史 子 集 "实例 验证 框架 ,通过 利用 
protégé 和 D2R 分 别 对 历史 档案 资源 进行 本 体 构建 和 
5.1 元 数据 方案 

历史 档案 资源 的 种 类 复杂 ,数字 资源 的 描述 不 但 
要 揭示 对 象 本 身 还 要 对 历史 档案 进行 互联 ,因此 ,相对 
于 其 他 单个 信息 资源 而 言 ,描述 具有 一 定 的 难度 。 本 
文中 历史 档案 资源 元 数据 核心 元 素 参 考 了 FRBR、 
CDLS、DC .CDWA 等 标准 ,结合 历史 档案 资源 与 档案 数 
据 的 属性 ,加 以 横向 延伸 及 纵向 拓展 , 共 分 为 4 类、21 
个 元 素 ,如 表 1 所 示 : 

表 1 历史 档案 资源 核心 元 数据 


分 类 元 素 
历史 档案 描述 信息 ”名称 年代、 类 别 , 标 识 符 , 主 题 .来源 创作、 规格 ,位 
置 ,描述 
数字 对 象 管理 信息 。 创建 者 .时间 版 权 
数字 对 象 措 述 信息 。 文件 名 ,大 小 ,格式 ,类 型 
相关 资源 相关 人 物 . 相 关 知 识 .相关 事件 .关联 数字 资 尖 
5.2 本体 构建 


本 文 依据 七 步 法 ”和 Protégé 技术 构建 经 史 子 集 
领域 本 体 ,具体 实现 过 程 如 图 4 所 示 : 


] | 不 一 致 
的 调研 现 有 定义 类 及 定义 属性 | ee 
下 人 本 体 的 复 了 了 入 亿 册 | 关 的 层级 及 属性 约 二 本 体检 测 
领域 与 范 性 的 术语 和 结构 
旦 概念 


图 4 经 史 子 集 领域 本 体 构 建 流 程 


(1) 明确 本 体 的 领域 和 范畴 ,构建 的 本 体 是 针对 
历史 档案 资源 中 的 经 史 子 集 类 别 。 

(2) 复 用 已 有 本 体 , 以 提高 工作 效率 ,获得 更 多 交 
互 。 通 过 对 文献 进行 查阅 调研 之 后 ,发 现 已 有 的 经 史 
子 集 元 数据 大 多 是 依据 2006 年 修订 的 《古籍 著录 规 


则 》 进 行 著录 的 ,统一 编目 .分 类 ,对 主要 信息 进行 充分 
揭示 。 
《3) 列 举 经 史 子 集 领 域 的 术语 和 概念 , 尽 可 能 多 地 
获取 相关 概念 和 术语 ,为 后 面 定义 层级 关系 葛 定 基础 。 
(4) 定 义 类 及 类 的 层级 结构 ,从 经 史 子 集 领域 术 
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语 中 选取 相关 词汇 ,并 研判 词汇 间 的 逻辑 关系 ,以 此 构 
建 层级 结构 。 

架 , 因 此 若 要 明确 属性 与 类 间 的 关系 ,需要 添加 属性 描 
述 。 在 Protégé 中 可 以 为 Class ,String Number 等 类 型 。 
经 史 子 集 部 分 数据 与 对 象 属性 见 图 5。 

为 了 让 本 体 语 义 关 系 能 够 被 更 清晰 、 完 善 地 表达 ， 
定义 了 概念 语义 关系 后 ,对 本 体 进 行 可 视 化 ,如 图 6 所 
示 。 本 体 可 视 化 与 经 史 子 集 类 层次 相 比 能 体现 更 加 丰 
富有 具体 的 联系 描述 。 


辜 研究 人 员 


202304.00636v1 


naXiv 


斧 (6) 本 体 实例 化 ,经 史 子 集 的 本 体 实例 建立 在 类 
及 由 属 性 明确 之 后 。 
(7) 本 体检 测 ,验证 本 体 是 否 符合 逻辑 ,包括 类 、 
属性 、 实 例 的 合理 性 问题 。 
5.3 ”关联 数据 发 布 

现今 的 门户 网 站 与 信息 系统 大 多 以 关系 型 数据 库 
对 数据 进行 存储 ,因此 应 将 关系 型 数据 库 转化 为 RDF 
形式 。 随 着 关联 数据 的 发 展 与 应 用 ,已 有 学 者 研发 出 
如 D2R 、Squirrel RDF 及 Virtuoso 等 将 数据 库 中 的 数据 
转化 为 关联 数据 集 的 工具 ,以 D2R 为 例 ,其 体系 结构 
见 图 7。 

D2R 主要 提供 RDF 数据 的 查询 接口 ,RDF 存储 、 
HTML 浏览 器 和 SPARQL 客户 端 均 可 调用 。D2R 主要 
包括 D2R 服务 器 .d2rq 引擎 和 d2rq 映射 语言 。 其 主要 
功能 是 使 用 可 定制 的 d2rqmapping 将 数据 库 中 的 数据 
转换 为 虚拟 RDF 格式 的 数据 ,并 将 数据 转换 为 真实 的 
RDF 文件 。 


Object property hierarchy: 


Data property hierarchy: 


固 国 | 图 


mm owl:topObjectProperty ml owltopDataProperty 


me JJ 作 于 二 其 
上 创作 时 间 a 
i 创作 者 姓名 
包含 国 存 尘 大 小 
至 发 生 的 a 存 清 格式 
lf 究 人 员 a 尺寸 
管理 人 员 ge 性别 

Be 描述 

ma 时间 


5 经 史 子 集 本 体 数据 与 对 和 象 属性 ( 部 分 ) 


6 经 史 子 集 本 体 可 视 化 图 


SPAROL 


el 
Link Data 
| 
NSS 
HTML 
1 
本 地 JAVA D2RQ 
应 用 各 内 | “一 | Tanseoe | DaRO | [ 典 射 语言 
Se 引擎 
组 | 一 一 一 [se 
存储 


7 ”D2R 的 结构 体系 
D2R 自 带 的 启动 服务 程序 能 够 为 我 们 提供 使 用 ， 


启动 d2r. server. bat , 只 需要 输入 命令 “generate-mapping 


-u root -p 123123 -o db_relic. 世 jdbe: mysql:///db_rel- 
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ic? useSSL = false” 执 行 已 经 生成 的 mapping 文件 , 然 
后 运行 D2R ,显示 [ [| Server started at http://localhost: 
2020/] ]] 就 可 以 在 浏览 器 中 进入 到 D2R 服务 页 面 。 
5.4 资源 聚合 

由 于 D2R 发 布 关联 数据 集 的 检索 方式 只 能 通过 
SPARQL 的 方式 去 检索 ,普通 的 检索 用 户 并 不 适用 ,本 
文采 用 MYSQL + ECLIPSE 的 开发 技术 ,设计 了 历史 档 
案 资 源 经 史 子 集 数字 服务 平台 来 对 资源 进行 聚合 。 


图 片 有 | 
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SD 
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CN 数字 人 文 视 域 下 ,发展 .挖掘 和 应 用 传统 文化 资源 
成 为 了 研究 热点 。 为 了 发 现 历史 档案 数字 资源 的 隐 性 
数据 关系 ,潜在 知识 和 增值 价值 , 需 借 助人 文 计算 工 
具 @ 关 联 数据 对 资源 实体 标识 了 唯一 的 URI, 并 利用 
链接 数字 资源 , 从 而 形成 数据 网 络 。 本 文 从 元 数 
述 .元 数据 - 本 体 映 射 .RDF 数据 发 布 .语义 聚合 
与 访问 的 层面 构建 了 历史 档案 资源 聚合 框架 ,该 框架 
为 历史 档案 数据 资源 聚合 提供 了 理论 引领 。 历 史 档案 
资源 聚合 框架 给 “经 史 子 集 " 实 例 的 资源 聚合 提供 了 
实现 的 路 径 体系 ,最 终 建立 的 历史 档案 数据 资源 聚合 
服务 平台 可 满足 用 户 查 询 和 检索 历史 档案 的 需求 。 
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Abstract: | Purpose/significance | The application of linking data technology in the aggregation of historical ar- 
Chive resources can help to explore the potential correlation of resource data, discover new knowledge and realize val- 
=t increment, so as to optimize knowledge service. | Method/process| This paper sorted out the related researches 
Con the exploitation and utilization of archival resources, constructed the framework of archival resources aggregation 
会 Ja the objective ，principle ，process and hierarchical relationship of resource aggregation ，and analyzed the process 

resource aggregation with the example of “ Jing Shi Zi Ji”. | Result/conclusion | The theoretical guiding frame- 
work and retrieval service platform of historical archival resources aggregation 位 om the perspective of linked data are 
“FHen, which provide a path from theory to practice for the development and utilization of historical archival re- 
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